Cuadro de mandos

1 Introducción

1.1 Estado actual

1.2 Motivación

1.3 Objetivos

2 Aportaciones del trabajo

2.1 Principales aportaciones

2.2 Alineamiento con los objetivos de desarrollo sostenible

Grado de relación del proyecto con los objetivos de desarrollo sostenible (ODS)
ODS No procede Bajo Medio Alto
1 Fin de la Pobreza X
2 Hambre cero X
3 Salud y Bienestar X
4 Educación de calidad X
5 Igualdad de género X
6 Agua limpia y saneamiento X
7 Energía Asequible y no contaminante X
8 Trabajo decente y crecimiento económico X
9 Industria, Innovación e Infraestructuras X
10 Reducción de las desigualdades X
11 Ciudades y comunidades sostenibles X
12 Producción y consumo sostenibles X
13 Acción por el clima X
14 Vida submarina X
15 Vida de ecosistemas terrestres X
16 Paz, justicia e instituciones sólidas X
17 Alianzas para lograr objetivos X

3 Desarrollo

3.1 Herramientas empleadas

3.2 Metodología

Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:

Diagrama metodología de desarrollo CRISP-DM

  • Comprensión del negocio. Se plantean los objetivos del proyecto y la búsqueda de información y datos.
  • Comprensión de los datos. Se analiza la estructura y organización de los datos obtenidos. Se identifican posible problemas como datos faltantes, outliers o inconsistencias.
  • Modelado. Selección y aplicación de los modelos adecuados para analizar los datos
  • Evaluación. Evaluar si el modelo responde a las preguntas de investigación, comparación con otros métodos
  • Despliegue. Comunicación del trabajo en una memoria y diseño y elaboración de un cuadro de mandos para presentar los resultados de forma eficaz y atractiva.

Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.

A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.

  • Preparación de los datos. Se realiza limpieza, transformación, combinación y selección/creación de variables relevantes para el análisis.

3.3 Comprensión del negocio

Para la búsqueda de datos, lo que se ha hecho es buscar directamente en la lista de datasets de Eurostat, en primer lugar había encontrado un dataset interesante pero este prácticamente hacía imposible la combinación de atributos además de tener inexistentes o pocos datos para España y Canarias, finalmente encontré el dataset con el que he trabajado y en este caso apenas he tenido incidencias o dificultades.

3.4 Comprensión de los datos

3.4.1 Descripción de variables categóricas y observaciones

El conjunto de datos contiene información anual sobre diversas partidas de ingreso de los hogares, desglosada por regiones NUTS. Las variables categóricas (dimensiones) que estructuran el dataset se describen a continuación:

Frecuencia de las observaciones (freq) -> Define la periodicidad con la que se registran las observaciones.

  • A (Anual): La información es recolectada y reportada con una periodicidad de un año.


Unidad de Medida (unit) -> Especifica la unidad utilizada para expresar el valor numérico (values) de la observación. Es crucial para garantizar la comparabilidad de los datos.

  • EUR_HAB -> Euros por habitante. Muestra la cifra de ingresos dividida por el número de personas en la región. Se utiliza para medir la renta promedio individual en euros. No está ajustada por lo que valen las cosas en esa región.

  • MIO_EUR -> Millones de Euros. Es el valor total de los ingresos de la región. Se utiliza para medir el tamaño o volumen total de la economía regional en la moneda común.

  • MIO_NAC -> Millones de Moneda Nacional. Es el valor total en la moneda del país antes de que adoptara el Euro (por ejemplo, en pesetas o francos). Solo es útil para analizar datos de años anteriores a la zona Euro.

  • MIO_PPS_EU27_2020 -> Millones de Estándares de Poder Adquisitivo (PPS). El PPS es una “moneda de comparación” que elimina el efecto de los precios. Si una región es muy cara, el PPS ajusta el ingreso a la baja; si es barata, lo ajusta al alza. Se usa para comparar el volumen económico real entre regiones.

  • PPS_EU27_2020_HAB -> PPS por habitante. Es la métrica más valiosa para las comparaciones. Muestra el ingreso promedio por persona, pero ajustado por el costo de vida. Esta unidad refleja de forma más precisa el nivel de vida real y la capacidad de compra de los habitantes en distintas regiones.


Dirección de Flujo (direct) -> Indica la naturaleza de la transacción económica, especificando si es un saldo o una operación de pago/recepción.

  • BAL (Balance): Representa un saldo neto (la diferencia entre ingresos y gastos o entre activos y pasivos). Es el resultado final de una cuenta económica.

  • PAID (Pagado): Hace referencia al valor de las transferencias o pagos realizados por el sector de los hogares.

  • RECV (Recibido): Hace referencia al valor de los ingresos o transferencias recibidas por el sector de los hogares.


Indicador de Cuentas Nacionales (na_item) -> Esta es la dimensión clave que define la variable económica exacta que se está midiendo, siguiendo la nomenclatura del Sistema Europeo de Cuentas (SEC 2010).

  • B5N -> Ingreso Primario Neto: El saldo de las rentas que reciben los hogares por su participación directa en la producción y la propiedad (salarios, rentas de la propiedad e ingresos de autoempleo), antes de transferencias e impuestos.

  • B6N -> Ingreso Disponible Neto: El saldo final que queda en manos de los hogares para consumo o ahorro, una vez que se han restado los impuestos y añadido las prestaciones sociales.

  • B7N -> Ahorro Neto: La porción del Ingreso Disponible que no se consume. Es la diferencia entre el Ingreso Disponible y el Gasto en Consumo Final.

  • D1 -> Remuneración de los Asalariados: El total de salarios y cotizaciones sociales pagadas por los empleadores. Es un componente clave del Ingreso Primario.

  • D4 -> Rentas de la Propiedad: Ingresos recibidos de la propiedad de activos (intereses, dividendos, rentas de la tierra, etc.).

  • D5 -> Impuestos Corrientes sobre la Renta y el Patrimonio: Impuestos obligatorios que los hogares pagan sobre sus ingresos o sus activos.

  • D61 -> Cotizaciones Sociales Netas: Contribuciones pagadas a la seguridad social, ajustadas para reflejar las cuentas netas.

  • D62 -> Prestaciones Sociales Distintas de las Transferencias Sociales en Especie: Los beneficios que los hogares reciben del Estado (pensiones, prestaciones por desempleo, etc.) en forma de dinero.

  • D63 -> Transferencias Sociales en Especie: Bienes y servicios proporcionados gratuitamente o a precios bajos por el Estado (como servicios de salud o educación).

  • D7 -> Otras Transferencias Corrientes: Partidas residuales de transferencias monetarias no clasificadas en las anteriores categorías.

  • B2A3N -> Excedente Bruto de Explotación y Renta Mixta: El beneficio derivado de las actividades de producción, en el contexto de los hogares suele referirse al ingreso de los trabajadores autónomos (renta mixta).

  • P3 -> Gasto en Consumo Final: El valor de los bienes y servicios utilizados por los hogares para la satisfacción directa de sus necesidades.

  • P51C -> Formación Bruta de Capital Fijo: La inversión en activos fijos (viviendas, maquinaria, etc.) por parte del sector de los hogares.


Región Geográfica (geo) -> Define la región geográfica a la que se refiere la observación, utilizando la Nomenclatura Común de Unidades Territoriales de Estadística (NUTS).

  • Valores: Los valores son códigos alfanuméricos estandarizados:

    • Códigos de dos letras (e.g., AT, BE, ES): Representan el total del país (ejemplo, Austria, Bélgica, España).

    • Códigos NUTS 1, NUTS 2 y NUTS 3 (e.g., AT1, AT11, AT111): Representan el desglose regional de los datos. NUTS 2 es el nivel predominante en este dataset (por ejemplo, Comunidades Autónomas, grandes regiones).


Las observaciones (variables no categóricas) con valor numérico que aparecen en este dataset son:

Fecha de la observación (TIME_PERIOD) -> Esta variable especifica el punto temporal al que se refiere el valor registrado. En un dataset con frecuencia Anual (freq = "A"), esta columna contendrá el año de la observación, en este caso, tomada el primer día del año.


Valor de la observación (values) -> Esta es la variable numérica principal que contiene la medida estadística de interés.

  • Función: Es el resultado de la observación. La cifra registrada en esta columna solo puede interpretarse correctamente al considerar las demás dimensiones:
    • Qué se mide (na_item): Por ejemplo, si es Ingreso Disponible Neto (B6N).
    • En qué unidad (unit): Por ejemplo, si está en Euros por habitante (EUR_HAB).
    • Dónde (geo): La región NUTS 2.
    • Cuándo (TIME_PERIOD): El año de la medición.
## COLUMNA: freq 
##      freq N.Observ full_name
## [1,] A    285294   Annual
## COLUMNA: unit 
##      unit              N.Observ full_name                                 
## [1,] MIO_EUR           115674   Million euro                              
## [2,] MIO_NAC           115674   Million units of national currency        
## [3,] MIO_PPS_EU27_2020  18176   Million purchasing power standards (PPS,..
## [4,] EUR_HAB            17885   Euro per inhabitant                       
## [5,] PPS_EU27_2020_HAB  17885   Purchasing power standard (PPS, EU27 fro..
## COLUMNA: direct 
##      direct N.Observ full_name
## [1,] BAL    110856   Balance  
## [2,] PAID    89588   Paid     
## [3,] RECV    84850   Received
## COLUMNA: na_item 
##       na_item N.Observ full_name                                 
##  [1,] B5N     44072    Balance of primary incomes/national inco..
##  [2,] B6N     44072    Disposable income, net                    
##  [3,] D4      36100    Property income                           
##  [4,] D7      36100    Other current transfers                   
##  [5,] D61     28370    Net social contributions                  
##  [6,] D62     28106    Social benefits other than social transf..
##  [7,] D1      18242    Compensation of employees                 
##  [8,] B2A3N   18162    Operating surplus and mixed income, net   
##  [9,] D5      18050    Current taxes on income, wealth, etc.     
## [10,] P51C     4986    Consumption of fixed capital              
## [11,] B7N      4550    Adjusted disposable income, net           
## [12,] P3       2346    Final consumption expenditure             
## [13,] D63      2138    Social transfers in kind                  
## 
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
##      NUTS      Number of Regions
## [1,] 0          29              
## [2,] 1          94              
## [3,] 2         251              
## [4,] EU27_2020   1              
## [5,] OTHERS     15              
## 
## COLUMNA: TIME_PERIOD 
##       TIME_PERIOD N.observ
##  [1,] 1995-01-01   2230   
##  [2,] 1996-01-01   2230   
##  [3,] 1997-01-01   2230   
##  [4,] 1998-01-01   2230   
##  [5,] 1999-01-01   2230   
##  [6,] 2000-01-01  11590   
##  [7,] 2001-01-01  11590   
##  [8,] 2002-01-01  11590   
##  [9,] 2003-01-01  11590   
## [10,] 2004-01-01  11590   
## [11,] 2005-01-01  11590   
## [12,] 2006-01-01  11596   
## [13,] 2007-01-01  11596   
## [14,] 2008-01-01  11632   
## [15,] 2009-01-01  11632   
## [16,] 2010-01-01  11688   
## [17,] 2011-01-01  11928   
## [18,] 2012-01-01  11928   
## [19,] 2013-01-01  11928   
## [20,] 2014-01-01  11932   
## [21,] 2015-01-01  11884   
## [22,] 2016-01-01  11942   
## [23,] 2017-01-01  11942   
## [24,] 2018-01-01  11942   
## [25,] 2019-01-01  11942   
## [26,] 2020-01-01  12168   
## [27,] 2021-01-01  12154   
## [28,] 2022-01-01  11724   
## [29,] 2023-01-01   3046

3.4.2 Estructura de los datos

El dataset (nama_10r_2hhinc) se presenta en una estructura ordenada (tidy). Esta organización se define porque cada fila representa una única observación. Es decir, la combinación de las variables categóricas (geo, na_item, unit, etc.) y la variable temporal (TIME_PERIOD) define de forma unívoca la medición. El resultado de esta medición se almacena en una sola columna numérica (values). Este formato, también conocido como “formato largo,” es el más eficiente y recomendado para la manipulación y el análisis directo de datos en entornos de software estadístico como R.

## tibble [285,294 × 7] (S3: tbl_df/tbl/data.frame)
##  $ freq       : chr [1:285294] "A" "A" "A" "A" ...
##  $ unit       : chr [1:285294] "MIO_EUR" "MIO_EUR" "MIO_EUR" "MIO_EUR" ...
##  $ direct     : chr [1:285294] "BAL" "BAL" "BAL" "PAID" ...
##  $ na_item    : chr [1:285294] "B2A3N" "B5N" "B6N" "D4" ...
##  $ geo        : chr [1:285294] "BE" "BE" "BE" "BE" ...
##  $ TIME_PERIOD: Date[1:285294], format: "1995-01-01" "1995-01-01" ...
##  $ values     : num [1:285294] 24926 168359 135254 3783 29816 ...

3.4.3 Series temporales

El tamaño máximo de las series temporales es 29 y se cumplen los requisitos de longitud de series temporales. Tenemos datos desde el año 1995 hasta 2023, pero en especial, la mayor cantidad de observaciones se da entre los años 2000 y 2022.

## # A tibble: 1 × 7
##     min   p10   p25   p50   p75   p90   max
##   <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1     2    23    23    23    24    29    29

3.4.4 Nº observaciones

En cuanto a la distribución del número de observaciones, tenemos que p50 = 736 y que el máximo es 1188 lo cual está bien teniendo en cuenta de que en su mayoría, este dataset tiene datos sobre regiones NUTS2. Además, España y Canarias son regiones que son interesantes y ambas cuenta con un buen número de observaciones, 934 para ser exactos.

Percentiles de la distribución del nº de observaciones por regiones

## # A tibble: 1 × 7
##     min   p10   p25   p50   p75   p90   max
##   <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1    34   644   644   736   796   934  1188

Nº de observaciones en España/Canarias

## # A tibble: 3 × 3
##   geo   full_name N.Observ
##   <chr> <chr>        <int>
## 1 ES    Spain          934
## 2 ES7   Canarias       934
## 3 ES70  Canarias       934

3.4.5 Combinaciones existentes de variables categóricas

Los datos nos proporcionan un total de 42 posibles combinaciones de las variables categóricas, cada combinación con número de observaciones por lo general cercano a 9000, aunque también vemos algunas pocas que tienen entre 1000 y 5000 observaciones.

## # A tibble: 42 × 7
## # Groups:   freq, unit, direct [9]
##    freq  unit              direct na_item N.observ init.date  end.date  
##    <chr> <chr>             <chr>  <chr>      <int> <date>     <date>    
##  1 A     MIO_EUR           RECV   D1          9121 1995-01-01 2023-01-01
##  2 A     MIO_NAC           RECV   D1          9121 1995-01-01 2023-01-01
##  3 A     MIO_EUR           BAL    B5N         9088 1995-01-01 2023-01-01
##  4 A     MIO_EUR           BAL    B6N         9088 1995-01-01 2023-01-01
##  5 A     MIO_NAC           BAL    B5N         9088 1995-01-01 2023-01-01
##  6 A     MIO_NAC           BAL    B6N         9088 1995-01-01 2023-01-01
##  7 A     MIO_PPS_EU27_2020 BAL    B5N         9088 1995-01-01 2023-01-01
##  8 A     MIO_PPS_EU27_2020 BAL    B6N         9088 1995-01-01 2023-01-01
##  9 A     MIO_EUR           BAL    B2A3N       9081 1995-01-01 2023-01-01
## 10 A     MIO_NAC           BAL    B2A3N       9081 1995-01-01 2023-01-01
## 11 A     MIO_EUR           PAID   D61         9065 1995-01-01 2023-01-01
## 12 A     MIO_EUR           RECV   D62         9065 1995-01-01 2023-01-01
## 13 A     MIO_NAC           PAID   D61         9065 1995-01-01 2023-01-01
## 14 A     MIO_NAC           RECV   D62         9065 1995-01-01 2023-01-01
## 15 A     MIO_EUR           PAID   D4          9025 1995-01-01 2023-01-01
## 16 A     MIO_EUR           PAID   D5          9025 1995-01-01 2023-01-01
## 17 A     MIO_EUR           PAID   D7          9025 1995-01-01 2023-01-01
## 18 A     MIO_EUR           RECV   D4          9025 1995-01-01 2023-01-01
## 19 A     MIO_EUR           RECV   D7          9025 1995-01-01 2023-01-01
## 20 A     MIO_NAC           PAID   D4          9025 1995-01-01 2023-01-01
## 21 A     MIO_NAC           PAID   D5          9025 1995-01-01 2023-01-01
## 22 A     MIO_NAC           PAID   D7          9025 1995-01-01 2023-01-01
## 23 A     MIO_NAC           RECV   D4          9025 1995-01-01 2023-01-01
## 24 A     MIO_NAC           RECV   D7          9025 1995-01-01 2023-01-01
## 25 A     EUR_HAB           BAL    B5N         8404 2000-01-01 2023-01-01
## 26 A     EUR_HAB           BAL    B6N         8404 2000-01-01 2023-01-01
## 27 A     PPS_EU27_2020_HAB BAL    B5N         8404 2000-01-01 2023-01-01
## 28 A     PPS_EU27_2020_HAB BAL    B6N         8404 2000-01-01 2023-01-01
## 29 A     MIO_EUR           RECV   D61         5120 1995-01-01 2023-01-01
## 30 A     MIO_NAC           RECV   D61         5120 1995-01-01 2023-01-01
## 31 A     MIO_EUR           PAID   D62         4988 1995-01-01 2023-01-01
## 32 A     MIO_NAC           PAID   D62         4988 1995-01-01 2023-01-01
## 33 A     MIO_EUR           PAID   P51C        2493 1995-01-01 2023-01-01
## 34 A     MIO_NAC           PAID   P51C        2493 1995-01-01 2023-01-01
## 35 A     MIO_EUR           BAL    B7N         1198 1995-01-01 2023-01-01
## 36 A     MIO_NAC           BAL    B7N         1198 1995-01-01 2023-01-01
## 37 A     MIO_EUR           PAID   P3          1173 1995-01-01 2023-01-01
## 38 A     MIO_NAC           PAID   P3          1173 1995-01-01 2023-01-01
## 39 A     EUR_HAB           BAL    B7N         1077 2000-01-01 2023-01-01
## 40 A     PPS_EU27_2020_HAB BAL    B7N         1077 2000-01-01 2023-01-01
## 41 A     MIO_EUR           RECV   D63         1069 1995-01-01 2023-01-01
## 42 A     MIO_NAC           RECV   D63         1069 1995-01-01 2023-01-01

3.4.6 Inconsistencias y datos faltantes

En general, no se han encontrado inconsistencias y no hay datos faltantes en los casos de España y Canarias, que son las regiones más interesantes.

Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)

3.5 Preparación de los datos

Income of households by NUTS 2 region
freq unit direct na_item geo TIME_PERIOD values
A MIO_EUR BAL B2A3N BE 1995-01-01 24926.01
A MIO_EUR BAL B5N BE 1995-01-01 168359.20
A MIO_EUR BAL B6N BE 1995-01-01 135254.37
A MIO_EUR PAID D4 BE 1995-01-01 3782.66
A MIO_EUR PAID D5 BE 1995-01-01 29816.37
A MIO_EUR PAID D61 BE 1995-01-01 43675.56
A MIO_EUR PAID D62 BE 1995-01-01 34.01
A MIO_EUR PAID D7 BE 1995-01-01 5726.00
A MIO_EUR RECV D1 BE 1995-01-01 113882.18
A MIO_EUR RECV D4 BE 1995-01-01 33333.67

Para empezar, vamos a pasar ‘TIME_PERIOD’ a año y además vamos a filtrar para que solo aparezcan los años desde el 2000 hasta el 2022, ya que son los años en los que hay más observaciones. Luego, como solo tenemos códigos de cada región y no sus nombres, vamos a unir esta tabla de eurostat que nos proporciona todos los nombres.

Income of households by NUTS 2 region
freq unit direct na_item geo TIME_PERIOD values full_name
A EUR_HAB BAL B5N AT 2000 17900 Austria
A EUR_HAB BAL B6N AT 2000 15600 Austria
A MIO_EUR BAL B2A3N AT 2000 18301 Austria
A MIO_EUR BAL B5N AT 2000 143732 Austria
A MIO_EUR BAL B6N AT 2000 124863 Austria
A MIO_EUR PAID D4 AT 2000 2560 Austria
A MIO_EUR PAID D5 AT 2000 23573 Austria
A MIO_EUR PAID D61 AT 2000 35403 Austria
A MIO_EUR PAID D62 AT 2000 0 Austria
A MIO_EUR PAID D7 AT 2000 4682 Austria

Al analizar la evolución de la renta en las regiones de España, vemos que en general la tendencia es hacia arriba, exceptuando 2005-2010 y 2020, esto probablemente, por sucesos como la explosión de la burbuja inmobiliaria en 2008 y en el caso de 2020 por el covid. Todas siguen un patrón parecido.

Como vemos, en primer lugar se encuentra País Vasco, Canarias se encuentra bastante abajo.

Ahora, vamos a ver cuales son los 10 países con mejores ingresos netos por habitante, esto sin tener en cuenta el costo de vida en cada país.

Como podemos ver, tener en cuenta el costo de la vida de cada país es importante, las posiciones de algunos países han cambiado como por ejemplo Francia y Bélgica.

Echemos un vistazo al top 10 con peor renta neta por habitante.

Otro factor interesante a tener en cuenta es comparar los impuestos que se pagan en cada país, vamos a ver los 10 países que más pagan impuestos en 2022.

Como vemos, en general los países que aparecen ahí también son los que tienen mejores rentas por habitante, exceptuando a Italia y España.

3.6 Modelado

Vamos a analizar la evolución de la renta neta por habitante en España. Filtraremos a partir del año 2002 ya que fue cuando se introdujo el euro a España.

Sacamos la misma conclusión que de las gráficas, en general la tendencia es hacia arriba excepto en eventos excepcionales como la crisis del 2008 o el covid.

## Series: values 
## Model: ARIMA(0,1,0) w/ drift 
## 
## Coefficients:
##       constant
##       280.0000
## s.e.   88.2045
## 
## sigma^2 estimated as 163796:  log likelihood=-147.93
## AIC=299.86   AICc=300.56   BIC=301.85

Como vemos en la predicción, no se espera que la evolución de la renta sea muy vertical como sucede en otros años.

A continuación vamos a ver como han evolucionado los impuestos en España a lo largo de los años, ya que vamos a trabajar en la unidad MIO_EUR, filtraremos a partir del año 2002 ya que fue cuando se introdujo el euro a España.

Haremos una predicción a 5 años.

## Series: values 
## Model: ARIMA(0,1,1) w/ drift 
## 
## Coefficients:
##          ma1  constant
##       0.5865  4072.230
## s.e.  0.1859  1821.095
## 
## sigma^2 estimated as 30344436:  log likelihood=-199.82
## AIC=405.63   AICc=407.13   BIC=408.62

3.7 Evaluación

3.8 Despliegue

4 Conclusiones y trabajo futuro

4.1 Conclusiones

4.2 Trabajo futuro

Anexo. Seguimiento temporal actividades del proyecto

TOTAL HORAS TRABAJADAS EN EL PROYECTO : NA

DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO